With the development of natural language processing techniques(NLP), automatic diagnosis of eye diseases using ophthalmology electronic medical records (OEMR) has become possible. It aims to evaluate the condition of both eyes of a patient respectively, and we formulate it as a particular multi-label classification task in this paper. Although there are a few related studies in other diseases, automatic diagnosis of eye diseases exhibits unique characteristics. First, descriptions of both eyes are mixed up in OEMR documents, with both free text and templated asymptomatic descriptions, resulting in sparsity and clutter of information. Second, OEMR documents contain multiple parts of descriptions and have long document lengths. Third, it is critical to provide explainability to the disease diagnosis model. To overcome those challenges, we present an effective automatic eye disease diagnosis framework, NEEDED. In this framework, a preprocessing module is integrated to improve the density and quality of information. Then, we design a hierarchical transformer structure for learning the contextualized representations of each sentence in the OEMR document. For the diagnosis part, we propose an attention-based predictor that enables traceable diagnosis by obtaining disease-specific information. Experiments on the real dataset and comparison with several baseline models show the advantage and explainability of our framework.
translated by 谷歌翻译
We examine the problem of learning a single occurrence regular expression with interleaving (SOIRE) from a set of text strings with noise. SOIRE has unrestricted support for interleaving and covers most of the regular expressions in practice. Learning SOIREs is challenging because it needs heavy computation and text strings usually contains noise in practice. Most of the previous work only learns restricted SOIREs and is not robust on noisy data. To tackle these issues, we proposea noise-tolerant differentiable learning approach SOIREDL for SOIRE. We design a neural network to simulate SOIRE matching of given text strings and theoretically prove that a class of the set of parameters learnt by the neural network, called faithful encoding, is one-to-one corresponding to SOIRE for a bounded size. Based on this correspondence, we interpret the target SOIRE from the set of parameters of the neural network by exploring nearest faithful encodings. Experimental results show that SOIREDL outperforms the state-of-the-art approaches especially on noisy data.
translated by 谷歌翻译
自我训练在半监督学习中表现出巨大的潜力。它的核心思想是使用在标记数据上学习的模型来生成未标记样本的伪标签,然后自我教学。为了获得有效的监督,主动尝试通常会采用动量老师进行伪标签的预测,但要观察确认偏见问题,在这种情况下,错误的预测可能会提供错误的监督信号并在培训过程中积累。这种缺点的主要原因是,现行的自我训练框架充当以前的知识指导当前状态,因为老师仅与过去的学生更新。为了减轻这个问题,我们提出了一种新颖的自我训练策略,该策略使模型可以从未来学习。具体而言,在每个培训步骤中,我们都会首先优化学生(即,在不将其应用于模型权重的情况下缓存梯度),然后用虚拟未来的学生更新老师,最后要求老师为伪标记生产伪标签目前的学生作为指导。这样,我们设法提高了伪标签的质量,从而提高了性能。我们还通过深入(FST-D)和广泛(FST-W)窥视未来,开发了我们未来自我训练(FST)框架的两个变体。将无监督的域自适应语义分割和半监督语义分割的任务作为实例,我们在广泛的环境下实验表明了我们方法的有效性和优越性。代码将公开可用。
translated by 谷歌翻译
来自计算机断层扫描血管造影(CTA)的肾脏结构分割对于许多计算机辅助的肾脏癌治疗应用至关重要。肾脏解析〜(KIPA 2022)挑战旨在建立细粒度的多结构数据集并改善多个肾脏结构的分割。最近,U-NET主导了医疗图像分割。在KIPA挑战中,我们评估了几个U-NET变体,并选择了最终提交的最佳模型。
translated by 谷歌翻译
学习在线推荐模型的关键挑战之一是时间域移动,这会导致培训与测试数据分布之间的不匹配以及域的概括错误。为了克服,我们建议学习一个未来的梯度生成器,该生成器可以预测培训未来数据分配的梯度信息,以便可以对建议模型进行培训,就像我们能够展望其部署的未来一样。与批处理更新相比,我们的理论表明,所提出的算法达到了较小的时间域概括误差,该误差通过梯度变异项在局部遗憾中衡量。我们通过与各种代表性基线进行比较来证明经验优势。
translated by 谷歌翻译
人的大脑可以毫不费力地识别和定位对象,而基于激光雷达点云的当前3D对象检测方法仍然报告了较低的性能,以检测闭塞和远处的对象:点云的外观由于遮挡而变化很大,并且在沿线的固有差异沿点固有差异变化。传感器的距离。因此,设计功能表示对此类点云至关重要。受到人类联想识别的启发,我们提出了一个新颖的3D检测框架,该框架通过域的适应来使对象完整特征。我们弥合感知域之间的差距,其中特征是从具有亚最佳表示的真实场景中得出的,以及概念域,其中功能是从由不批准对象组成的增强场景中提取的,并具有丰富的详细信息。研究了一种可行的方法,可以在没有外部数据集的情况下构建概念场景。我们进一步介绍了一个基于注意力的重新加权模块,该模块可适应地增强更翔实区域的特征。该网络的功能增强能力将被利用,而无需在推理过程中引入额外的成本,这是各种3D检测框架中的插件。我们以准确性和速度都在Kitti 3D检测基准上实现了新的最先进性能。关于Nuscenes和Waymo数据集的实验也验证了我们方法的多功能性。
translated by 谷歌翻译
最近的顺序推荐模型越来越多地依赖连续的短期用户相互作用序列来建模用户兴趣。但是,这些方法引起了人们对短期和长期利益的关注。 (1){\ IT短期}:交互序列可能不是由单一的兴趣引起的,而是来自几个相互交织的利益,即使在短时间内,也导致了它们无法模拟Skip行为的失败; (2){\ it长期}:相互作用序列主要是在离散的间隔内稀疏观察,而不是长期连续的。这使得难以推断长期利益,因为只能考虑到跨序列的利益动态,因此只能得出离散的利息表示。在这项研究中,我们通过学习来解决这些问题(1)短期利益的多尺度表示; (2)长期利益的动态意识表示。为此,我们提出了一个\ textbf {i} nterest \ textbf {d} ynamics建模框架,使用生成\ textbf {n} eural \ textbf {p textbf {p} rocesses,coincined IDNP,以从功能角度来看,以模拟用户兴趣。 IDNP学习了一个全球兴趣函数家族,以定义每个用户的长期兴趣作为功能实例化,从而通过功能连续性表现出兴趣动态。具体而言,IDNP首先将每个用户的短期交互编码为多尺度表示,然后将其汇总为用户上下文。通过将潜在的全球兴趣与用户上下文相结合,IDNP然后重建长期用户兴趣功能,并在即将到来的查询时间段上预测交互。此外,即使相互作用序列受到限制和非连续性,IDNP也可以建模此类兴趣功能。在四个现实世界数据集上进行的广泛实验表明,我们的模型在各种评估指标上的最先进。
translated by 谷歌翻译
单眼3D对象检测是低成本自主剂感知其周围环境的常见解决方案。单眼检测已分为两类:(1)直接从正面视图图像推断3D边界框的直接方法; (2)3D中间表示方法将图像映射到3D空间以进行后续3D检测。第二类不仅脱颖而出,不仅是因为3D检测锻造的伪装在更有意义和代表性的特征的怜悯下,而且还因为新兴的SOTA端到端的预测和计划范式需要从感知中获得鸟类视图的特征图管道。但是,在转换为3D表示形式时,这些方法不能保证对象在潜在空间中的隐式方向和位置与在欧几里得空间中明确观察到的物体一致,这会损害模型性能。因此,我们认为,隐式和显式特征的一致性很重要,并提出了一种新颖的单眼检测方法,名为CIEF,并具有第一个方向感知的图像主链,以消除随后的3D表示中隐式和显式特征的差异。作为第二个贡献,我们引入了射线注意机制。与以前的方法相反,该方法沿着投影射线重复特征或依靠另一个Intermedia froustum Point云,我们将图像特征直接转换为具有稳定特征的Voxel表示。我们还提出了一个手工制作的高斯位置编码函数,该函数的表现优于正弦的编码函数,但保持连续的好处。 CIEF在提交时间的3D和BEV检测基准的所有报告的方法中排名第一。
translated by 谷歌翻译
最近,基于变压器的方法可预测多边形点或偏斜的曲线控制点可以定位文本,在场景文本检测中非常受欢迎。但是,使用的点标签形式意味着人类的阅读顺序,这会影响变压器模型的鲁棒性。至于模型体系结构,以前的方法尚未完全探索解码器中使用的查询的公式。在本文中,我们提出了一个简洁的动态点场景文本检测,称为dptext-detr,它直接将点坐标用作查询,并在解码器层之间动态更新它们。我们指出了一种简单而有效的位置标签形式,以应对原始效果。此外,增强的分解自我发项模块旨在显式地模拟多边形点序列的圆形形状,而不是非本地关注。广泛的实验证明了各种任意形状场景文本基准的训练效率,鲁棒性和最先进的性能。除了探测器之外,我们观察到现有的端到端观察者难以识别类似逆的文本。为了客观地评估他们的绩效并促进未来的研究,我们提出了一个逆文本测试集,其中包含500个手动标记图像。代码和反文本测试集将在https://github.com/ymy-k/dptext-detr上找到。
translated by 谷歌翻译
最近的研究表明,在将图神经网络应用于多元时间序列预测中,其中时间序列的相互作用被描述为图形结构,并且变量表示为图节点。沿着这一行,现有方法通常假定确定图神经网络的聚合方式的图形结构(或邻接矩阵)是根据定义或自学来固定的。但是,变量的相互作用在现实情况下可以是动态的和进化的。此外,如果在不同的时间尺度上观察到时间序列的相互作用序列的相互作用大不相同。为了使图形神经网络具有灵活而实用的图结构,在本文中,我们研究了如何对时间序列的进化和多尺度相互作用进行建模。特别是,我们首先提供与扩张的卷积配合的层次图结构,以捕获时间序列之间的比例特定相关性。然后,以经常性的方式构建了一系列邻接矩阵,以表示每一层的不断发展的相关性。此外,提供了一个统一的神经网络来集成上述组件以获得最终预测。这样,我们可以同时捕获成对的相关性和时间依赖性。最后,对单步和多步骤预测任务的实验证明了我们方法比最新方法的优越性。
translated by 谷歌翻译